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基于 统计 学 特征 的 android 恶意 应 用 检测 方法 
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摘 要 : 针对 Android 恶意 应 用 检测 中 忽略 特征 统计 学 意义 的 问题 ， 提 出 一 种 基于 统计 学 特征 的 Android 恶意 应 用 检 
测 方法 。 该 方法 提取 应 用 统计 学 特征 作为 训练 数据 集 ， 并 采用 聚 类 算法 预 处 理 恶 意 数 据 集 以 降低 个 体 差 异性 对 实验 结 
果 的 影响 。 另 一 方面 ， 该 方法 结合 特征 和 多 种 机 器 学 习 算 法 (如 线性 回归 、 神 经 网 络 等 ) 建立 了 检测 模型 。 该 方法 提 
出 的 两 个 模型 准确 率 均 能 达到 95% 以 上 ， 检 测 时 间 相 比 于 对 比 实验 也 能 大 幅度 降低 。 实 验 结果 表明 ， 应 用 的 统计 学 特 
征 能 够 很 好 地 区 分 良性 和 恶意 应 用 ， 并 且 通 过 聚 类 算法 预 处 理 数 据 能 够 提高 检测 精度 。 
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Android malicious application detection method based on statistical features 


Leng Bo?, Li Jianbin! 
(a. School of Information Science & Engineering, b. Information Security & Big Data Research Institute, Central South 
University, Changsha 410083, China) 


Abstract: Aiming at the problem of ignoring the statistical significance of features in detection of Android malicious 


applications, an Android malicious application detection method based on statistical features was proposed. This method 
extracted the statistical characteristics of the training data set and used a clustering algorithm to preprocess the malicious data 


set for reducing the impact of individual differences on the experimental results. On the other hand, this method combined the 


features and various machine learning algorithms (such as linear regression, neural network, etc.) to establish a detection model. 
The accuracy rate of the two models proposed by this method could reach more than 95%, and the detection time could be 
greatly reduced compared with the comparison experiment. Experimental results show that the statistical characteristics of the 
application can be used to distinguish between benign and malicious applications, and preprocessing the data by clustering 
algorithm can improve the detection accuracy. 


Key words: statistical features; machine learning; individual difference; malware detection. 


«PK Android 平台 平均 每 天 新 增 恶 意 应 用 2.1 万 个 。 因 此 ， 如 
何 检测 出 Android 恶意 软件 并 阻止 其 对 用 户 造成 危害 是 非常 迫 
据 International Data Corporation (IDC)!HRiÉ, JA 2016 年 切 的 。 同 时 ， 这 也 是 非常 具有 挑战 性 。 目 前 ， 关 于 Android 应 
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第 一 季度 到 2017 年 第 一 季度 Android 智能 手机 在 全 球 智 能 手 ”用 程序 检测 的 研究 主要 集中 在 结合 特征 和 机 器 学 习 算法 来 校 验 
机 市 场 份 额 中 一 枝 独 秀 ， 以 压倒 性 的 优势 遥遥 领先 其 他 的 智能 ”应 用 程序 的 恶意 与 否 。 通 过 分 析 Android 应 用 程序 的 源 代码 或 
手机 平台 。 智 能 手机 的 迅猛 发 展 导 致 了 人 们 生活 发 生 了 翻天 覆 ”者 二 进 制 信息 ， 恶 意 应 用 研究 者 提出 了 利用 权限 特征 本 、 组 件 
地 的 变化 。 一 方面 智能 手机 已 经 不 再 是 简单 的 通信 工具 ， 用 户 。。 特征 向 、dex RESLAR smali 特征 加 进行 恶意 应 用 检测 模型 的 
使 用 智能 手机 可 以 网 上 冲浪 、 浏 览 视频 、 购 物 聊天 、office 办 公 训练。 其 中 ， 权 限 特征 和 组 件 特征 均 来 自 Android 应 用 的 资源 
等 ， 另 一 方面 智能 手机 也 成 为 了 用 户 信息 的 小 小 缩影 ， 它 包含 。 清单 文件 AndroidManifest.xml。 应 用 程序 申请 的 权限 和 组 件 
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了 用 户 的 几乎 所 有 信息 ,如 常见 的 用 户 身 份 信息 、 银 行 卡 信息 、 特殊 的 标签 所 包含 。 在 应 用 程序 安装 时 , Android 系统 会 读 取 该 
通讯 录 等 。 一 旦 丢失 或 者 被 不 法 分 子 资 取 ， 其 后 果 不 堪 设想 。 文件 并 进行 配置 。Dex 特征 是 指 从 解压 后 应 用 程序 的 dex 文件 
同时 ， 随 着 Android 设备 的 日 益 普 及 ， 便 利 的 网 络 和 高 价值 的 中 解析 出 来 的 特征 。Dex 文件 是 Android 虚拟 机 Dalvik 的 执行 
个 人 信息 已 经 吸引 了 恶意 软件 开发 者 的 极 大 兴趣 。360 安全 中 ”文件 并 且 有 自己 固定 的 格式 。 而 smali 特征 来 源 于 反 编 译 应 用 


E 


收 稿 日 期 : 2018-03-08; 修 回 日 期 : 2018-04-25 
作者 简介 : 冷 波 〈1992-)， 江 西 九 江 人 ， 磊 士 研究 生 ， 主 要 研究 方向 为 信息 安全 ; 李 建 彬 (1968-)， 男 (通信 作者 )， 教 授 ， 磊 士 ， 主 要 研究 方向 为 信息 


安全 (lijianbin@csu.edu.cn). 


201805.00451 v1 


chinaXiv 


ChinaXi | 
Rn 冷 、 波 ， 等 : 基于 统计 学 特征 的 android 恶意 应 用 检测 方法 


程序 后 的 smali 文件 。 通 过 提取 应 用 程序 的 静态 特征 构建 的 检 ”用 程序 的 恶意 性 09。 系 统 数据 在 部 分 应 用 运行 时 会 被 应 用 所 使 
测 方法 能 够 准确 地 进行 恶意 应 用 检测 。 用 ， 研 究 者 通过 将 系统 数据 打上 标记 并 跟踪 标记 数据 分 析 应 用 
但 是 上 述 方法 着 重 于 理解 每 个 特征 的 含义 ， 并 且 忽 视 了 个 ”的 信息 流 从 而 检测 出 应 用 的 异常 行为 03， 并 且 在 应 用 运行 过 程 
体 的 特殊 性 。 同 时 ,恶意 应 用 的 检测 时 间 尚 未 受到 足够 的 重视 。 中 监测 应 用 产生 的 网 络 流量 也 能 较 好 地 反映 应 用 的 行为 09。 部 
因此 , 本 文 提出 基于 统计 学 特征 的 Android 恶意 应 用 检测 方法 ， ”分 恶意 应 用 会 检测 自身 是 否 处 于 真 机 状态 从 而 隐藏 自己 的 行为 。 
它 利 用 权限 、 组件、dex 信息 和 smali 信息 并 结合 多 种 机 器 学 习 ”因此 Salehi 等 人 07 创建 了 一 个 基于 主机 的 轻 量 级 的 检测 系统 ， 
算法 〈 如 SVR, MLP 等 ) 用 于 恶意 软件 检测 。 该 方法 包括 两 个 ”该 系统 在 移动 设备 上 进行 检测 ， 并 可 以 重建 应 用 程序 的 行为 。 
模型 。 每 个 模型 分 析 和 提取 统计 特征 ， 充 分 降低 个 体 差异 性 对 静态 分 析 方 法 具有 检测 速率 快 、 准 确 率 高 的 特点 ， 
应 用 检测 的 影响 。 模 型 1 则 在 更 快 地 检测 ， 而 模型 2 提供 更 高 ”检测 出 新 生 的 恶意 应 用 ， 而 动态 检测 方法 能 够 检测 新 生 的 恶意 
的 检测 精度 。 本 文 的 贡献 如 下 : a) 从 器 新 的 角度 分 析 Android 应 应用， 但 又 特别 地 耗费 资源 。 为 了 充分 发 挥 两 者 的 优势 并 弥补 
， 提 取 apk 代码 的 统计 学 特征 ， 而 不 是 关注 特征 本 身 的 意义 ; ”两 者 的 不 足 ， 有 研究 者 提出 动静 结合 的 Android 恶意 应 用 检测 
b) 首 次 通过 聚 类 算法 降低 个 体 差 异性 的 影响 ， 并 且 根 据 每 从 大 方法。 动静 结合 的 检测 方法 是 指 在 恶意 应 用 的 检测 过 程 中 先 使 
小 的 波动 性 选择 聚 类 数目 来 最 小 化 随机 聚 类 的 影响 ;c) 使 用 双 ”用 静态 分 析 方法 进行 检测 ， 如 果 检 测 出 是 恶意 应 用 ， 则 不 需要 
层 学 习 模 型 以 获得 更 好 的 准确 性 ;d) 根 据 不 同 场景 提供 两 种 模 ”提交 动态 检测 方法 检测 ， 否 则 就 提交 给 动态 分 析 方 法 进行 检测 


型 。 模 型 1 用 于 更 快 的 检测 ， 而 模型 2 用 于 更 精确 的 检测 。 [8], 
上 述 的 几 种 检测 方法 是 目前 Android 恶意 应 用 检测 研究 的 
1 ”相关 工作 Pa A DRE E i 
中 心 ， 但 是 这 些 方法 都 强调 特征 本 身 的 内 容 ， 而 忽视 了 特征 的 
Android 恶意 应 用 检测 方法 主要 分 为 静态 检测 、 动 态 检测 统计 学 意义 ， 并 且 没 有 很 好 地 解决 个 体 差 异性 的 影响 。 本 文 提 
以 及 动静 结合 的 检测 方法 。 出 的 方法 对 Android 恶意 应 用 检测 具 定 的 参考 意义 。 
icq dee 分 析 Android 应 用 的 源 代码 或 二 进 
2 ”设计 与 实现 
制 信息 、 提 取 权 限 、 组 件 、 函 数 调用 、Intent、ICC (组 件 间 通 设计 与 实现 
信和 orn MENTION 权 基于 统计 学 特征 的 Android 恶意 应 用 检测 方法 是 一 种 静 
限 、 组 件 分 析 是 指 利用 AndroidManifest.xml 文件 中 声明 的 态 的 检测 方法 。 该 方法 包括 三 部 分 ， 即 收集 数据 、 提 取 特 征 和 
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ermission activity, service. provider, receiver 等 内 容 进 行 分 。 训练 模型 (图 1 )。 


p 
析 中 。 其 中 权限 代表 应 用 程序 的 执行 能 力 ， 能 够 很 好 地 反映 应 


用 的 潜在 行为 。 而 其 他 的 组 件 信息 是 应 用 程序 的 入 口 ， 同 样 也 
能 够 反映 应 用 程序 的 执行 流程 。 函 数 调用 分 析 是 通过 对 应 用 程 L Lome Model 
序 源 代码 中 使 用 的 API 进行 结构 化 的 处 理 并 形成 函数 调用 图 。 | —— | 

函数 调用 图 从 每 个 应 用 程序 Main Thread 开始 执行 , 中 间 能 够 进 T Lem Sii 


行 复杂 的 逻辑 处 理 ， 最 后 由 系统 保持 应 用 程序 状态 。 利 用 生成 
函数 调用 图 能 够 全 面 地 反映 应 用 程序 的 执行 过 程 四 。Android 图 1 系统 架构 
用 中 组 件 通 信和 的 载体 是 Android Intent, Intent 能 够 跨越 组 件 2.1 数据 收集 


边界 传递 数据 并 且 几 乎 所 有 的 恶意 应 用 都 离 不 开 Intent 。 本 文 收集 了 大 量 的 恶意 样本 和 良性 样本 。 其 中 恶意 样本 均 
Feizollah 等 人 四 证 明了 Android Intents 作为 检测 恶意 应 用 程 请 来 自 Arp DM 数据 集 ， 该 数据 集 包含 5 560 个 恶意 应 用 ， 并 且 
的 特征 的 有 效 性 。Idress 等 人 0 利用 权限 和 意图 构建 了 识别 。 属于 179 个 不 同 的 恶意 软件 家 族 ， 如 木马 、 广 告 软件 、 间 谍 软 
Android 恶意 软件 应 用 程序 的 框架 。ICC (组 件 间 通信 ) 是 指 牛 和 信息 窃取 应 用 等 。 良 性 样本 均 来 自 Google Play 商店 。 
Android 应 用 中 的 四 大 组 件 之 间 相互 传递 数据 。 通 过 分 析 ICC Google Play 商店 是 Android 智能 手机 的 官方 应 用 市 场 ， 并 且 
在 应 用 中 的 使 用 可 以 进行 Android 恶意 应 用 的 检测 器 。Android ”有 严格 的 应 用 检测 制度 。 在 Google Play 市 场 上 出 现 的 应 用 程 
应 用 本 质 是 二 进 制 文件 , 是 一 串 0101 序列 。 通过 分 析 其 格式 序 必 须 经 过 开发 者 、 应 用 程序 代码 、 元 数据 等 多 重 检测 才能 发 
提取 操作 指令 可 以 有 效 地 甄别 恶意 行为 0 。 布 。 所 以 可 以 认为 GooglePlay 上 发 布 的 应 用 是 良性 的 。 和 良性 样 

动态 分 析 是 指 利用 沙 盒 技术 ， 模 拟 用 户 的 点 击 事件 ， 自 动 ”本 数据 集 包 含 来 自 Google Play 中 27 个 目录 共 3 000 个 良性 应 
地 完成 应 用 程序 的 安装 、 运 行 、 介 载 等 操作 ， 并 记录 信息 以 检 ， 用 。 
测 恶意 应 用 的 分 析 方 法 。 应 用 程序 在 沙 盒 环境 中 的 行为 
于 产生 模型 。 不 同 的 模型 属于 不 同 的 类 别 。 当 应 用 被 检测 出 不 
属于 良性 应 用 类 别 时 就 是 恶意 应 用 031。 通 过 改变 点 击 事件 序列 
可 以 让 应 用 程序 产生 不 同 的 行为 ， 并 比较 应 用 的 行为 以 确定 应 
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2.2 提取 特征 
Apktool20 可 用 于 对 Android apk 文件 进行 反 编 译 ， 并 可 轻 
松 将 资源 解码 为 最 接近 的 原始 形式 。 UnzipP0 可 以 用 来 解压 
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apk 文件 。 在 本 文中 利用 这 两 个 工具 来 提取 特征 。 通 过 反 编译 
apk 获得 了 大 量 文件 夹 和 文件 ， 这 些 文件 如 图 2 所 示 。 


iil AndroidManifest.xml 
apktool.yml 


> [original 
> B res 
» Bm smali 
图 2 ” 反 编 译 示例 
AndroidManifest.xml 声明 应 用 程序 申请 的 所 有 权限 和 组 
fF. Apktool.xml 包含 一 些 附 加 信息 , 如 版 本 和 版 本 信息 。 Res 
文件 夹 包含 不 同 的 资源 。Smali 文件 夹 包 含 来 自 Java 字 节 码 的 


进 制 信息 。 图 3 显示 


smali 文件 ， 而 original 文件 夹 包含 一 些 二 
了 解压 缩 的 apk 文件 示例 。 


I8 AndroidManifest.xml 
> [H assets 
build-data.properties 


classes.dex 
classes2.dex 


classes3.dex 


图 3 解压 缩 示例 

本 文 分 析 了 图 2 中 的 AndroidManifest.xml 并 提取 了 大 量 
特征 ， 如 一 个 apk 有 多 少 activity。 表 1 显示 了 该 应 用 程序 的 一 
个 示例 。 


del 权限 组 件 特征 
特征 示例 
Activity Activity : 10 
Receiver Receiver : 5 
Service Service :3 
Action Action : 68 
Category Category :16 


Intent-filter Intent-filter : 20 


Meta-data Meta-data : 10 
DexFormat?27i] H f .dex 文件 遵循 的 特定 格式 ， 本 文通 过 
分 析 其 格式 收集 了 表 2 中 列 出 的 特性 。 
表 2 Dex 特征 


示例 


特征 


Link szie Link size:0 


Proto ids size Proto ids size:6899 
String ids size Stirng ids size:28714 
Field ids size Field ids size:20594 
Type ids size Type ids size:5463 
Method ids size Method id size:35882 

来 自 同 一 应 用 程序 的 所 有 smali 文件 都 通过 反 编译 存储 在 
smali 文件 夹 中 。 每 个 .smali 文件 都 遵循 固定 的 语法 格式 。 本 文 


记录 来 的 特征 信息 的 数量 ， 如 静态 域 和 保护 域 。 


smali 文件 


d 3 列 出 部 分 统计 特征 。 
表 3 Smali 特征 


aXiv 合 作 期 刊 


Chin 
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特征 示例 


Avg parameter num 
Min invoke num 
Method num 


Min register num 


Avg paramter num:7.2146 
Min invoke num:4.66666 
Method, num:42.428571286 


Min register num:0.76190 


本 文 提 取 的 统计 学 特征 包括 权限 组 


这 些 特征 与 应 | 


应 | 
X. 
2.3 


结果 
所 以 通过 多 次 实验 的 方法 选取 聚 类 数 
作为 最 终 聚 类 结果 。 随 后 ， 
加 入 良性 样 


程序 运行 密切 相关 ， 部 分 特征 
取 的 特征 具有 一 定 的 意 


程序 所 能 执行 的 行为 。 所 以 本 文 提 


件 、smali 和 dex 特征 。 
还 能 清晰 地 反映 


构建 模型 
图 4 所 示 的 学 习 训 练 模块 是 本 文 的 重要 组 成 部 分 。 
a 
ClusterModel 
ri rasis 
EP s — 
Cluster | Benign Malicious Bi TempTrainSet TempTrainS 
d Malicious Benigr Malicious Benign 
FirstLeaming SecondLeaming 


图 4 
该 训练 模块 总 共 由 两 层 组 成 。 


训练 模块 


第 一 层 首先 通过 聚 类 算法 降低 恶意 


应 用 个 体 差 异性 对 实验 


的 影响 。 因 为 聚 类 算法 本 身 在 选取 质点 中 心 时 


有 随机 性 ， 


波动 性 最 小 的 聚 


类 结果 


本 组 成 训练 集 , 并 利用 


所 | 


n 
w 
LO 


] 的 机 器 学 习 算 法 包括 线性 


络 、 


最 后 ， 本 文 抽取 剩余 数据 人 
foe 
(ROC H 


型 
Lo 


Ro 


IRR, RRA 


本 文 在 恶意 应 用 聚 
多 种 机 器 学 习 算 法 进行 训练 。 
、 支 持 向 量 机 回归 、 神 经 网 


类 产生 的 每 簇 中 
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随机 森林 、K- 近 邻 算法 、 


piss 


可 归 以 及 贝 叶 斯 岭 回归 算法 。 


中 的 部 分 恶意 和 良性 样本 构建 测试 


M 


估 每 个 模型 ， 并 获得 恶意 
线 下 面积 )， AUC 


在 训 


练 的 第 二 层 当中 ， 本 文 首先 构建 了 临时 


中 用 每 个 簇 每 个 算法 的 AUC 
acus 


型 就 是 每 簇 的 最 终 模 


训练 集 和 测试 


ma aie 
恶意 应 上 


随后 ， 利 用 第 


得 到 的 结果 并 结合 


避 用 每 个 艇 模型 计算 临时 训练 集 和 
单 本 标签 组 成 最 终 训练 集 


和 测试 集 。 最 后 ， 与 第 一 层 相 同 ， 在 训练 集 执行 了 多 种 算法 ， 
使 用 测试 集 进行 测试 以 获得 每 种 算法 的 AUC， 并 决定 AUC 最 
佳 的 模型 作为 第 二 层 的 最 终 模型 。 
3 ”实验 结果 与 分 析 

本 文 提供 两 种 模型 来 满足 不 同 场景 的 需求 。 模型 1 结合 
权限 、 组 件 和 smali 特征 。 模 型 2 结合 了 权限 、 组 件 和 dex 特 
征 。 以 下 以 模型 为 单位 分 别 讨论 。 
3.1 聚 类 分 析 


KMeans 算法 是 


最 受 欢 迎 的 聚 类 算法 之 


随机 选 
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质心 并 将 样本 放 入 一 个 最 近 质 心 类 中 来 实施 聚 类 。 因 此 随机 
质心 将 导致 聚 类 簇 的 大 小 不 一 。 当 质心 数 从 3 变化 到 5 时 ， 本 
运行 实验 10 次 ， 其 结果 如 图 5 所 示 。 在 图 S 的 每 个 子 图 中 ， 
坐标 轴 表 示 质 心 的 数目 ， 而 纵 轴 表示 每 个 徐 的 大 小 。 模 型 1 
和 2 在 四 个 质心 时 保持 每 个 簇 的 大 小 的 基本 稳定 。 因 此 ， 聚 类 
算法 显示 聚 类 效果 最 稳定 的 复数 大 小 是 4。 


xi E 


site per citer 


satar 


— 
EE 


聚 类 分 析 


3.2 RRE 
基于 多 种 算法 ， 
CTPR ) 如 下 : 


本 文 记录 了 每 簇 每 个 算法 的 真 阳 愧 


Ht 


TP 
TP FN 
y, 7 TPR(Cluster A lgorithm, \(i=1,2,3,4; j =1,2,3,4,5,6,7) 
其 中 : TP 代表 真 阳 性 样本 ， 阳 性 样本 检测 结果 为 阳性 ; 
示 假 阴性 样本 ， 检 查 为 阴性 但 实际 是 阳性 的 样本 。 
计算 每 个 秘 每 个 算法 的 假 阳性 率 (FPR) WT: 
FP 


ER= 一 一 一 
FP+TN 


yz FPR(Cluster Algorithm 


IPR- 


(1) 


FN 显 
另外 ， 


Q) 
ji 712,34; j212,34,56,7) 
其 中 : FP 表示 假 阳 性 样本 , 该 样本 为 阴性 但 检查 为 阳性 ; 相反 ， 
TN 显示 真 阴性 样本 ， 阴 性 样本 为 阴性 且 检 测 结果 也 为 阴性 。 
此 外 ， 本 文 记录 了 每 个 簇 每 个 算法 的 准确 度 ， 即 预测 的 正 
确 结果 除 以 所 有 结果 。 


IN TP 
FP4TP& FN4TN (3) 
y, 7 Accuracy (Cluster lg orithm, X(i=1,2,3,4;j=1,2,3,4,5,6,1) 


Accuracy = 


然后 ， 本 文通 过 绘制 ROC 曲线 获得 了 每 簇 算法 的 AUC. 
y,=AUC(Cluster A lgorithm, Ji-1234;212345,67) — (4) 
本 文 记录 了 最 优 算法 的 AUC， 如 表 4 和 5 所 示 。 
K4 Dex 最 优 算法 


$ ok, $: 基于 统计 学 China v ERATI. 
X5 Smali 最 优 算法 
Smali f 最 优 算法 AUC( 曲 线 下 面积 
第 一 簇 MLPRegressor 0.98157 
58 — f Ridge 0.932828 
BZ LinearRegression 0.964847 
E MLPRegression 0.970324 
3.8 RARE 
本 文 使 用 每 个 徐 模 型 将 临时 训练 集 和 测试 集 转换 为 最 终 
集合 .每 个 模型 计算 临时 集 以 获得 一 列 数 据 。 由 于 四 个 簇 模型 ， 


y, = ModelCluster (temporary set (i -1,2,3,4) 


然后 ， 本 文 合并 四 


本 文 对 模型 1 和 2 


所 以 获得 了 四 列 ， 如 下 所 示 : 


列 的 数据 


Z={y,label}(i=1,2,3,4) 


和 标签 列 如 下 : 


(5) 


(6) 


的 最 终 训练 集 和 测试 集 执行 了 不 同 的 


算法 。 最 后 ， 实 验 结果 记录 在 表 6 和 7 中 。 
表 6 Dex 最 终 算法 
算法 AUC( 曲 线 下 面积 
SVR 0.9625 
MLP 0.9735 
RandomForest 0.9715 
KNeighbors 0.9716 
Ridge 0.9635 
LinearRegression 0.9634 
BayesianRidge 0.9635 
表 7 Smali 最 终 算法 
算法 AUC( 曲 线 下 面积 
SVR 0.9854 
MLP 0.9938 
RandomForest 0.9867 
KNeighbors 0.9825 
Ridge 0.9835 
LinearRegression 0.9835 
BayesianRidge 0.9835 


结果 显示 模型 1 和 2 中 MLPRegressor H 
因此 , 本 文 使 用 MLPRegressor 作为 最 终 算 法 ， 


Dex f 最 优 算法 AUC( 曲 线 下 面积 
2B — x MLPRegressor 0.960402 

第 二 簇 LinearRegression 0.967626 

第 三 簇 LinearRegression 0.950732 

S UU f BayesianRidge 0.97165 


建 模型 。 
3.4 对 比分 析 


程序 。 


最 好 的 AUC。 


来 区 分 恶意 和 
意 应 用 均 来 自 DREBIN 数据 集 当中 ， 
进行 比较 ， 并 从 时 间 效 率 


基于 此 算法 构 


在 Arp DP3Iff] DREBIN 中 ,研究 人 员 结 合 SVM (支持 向 
ML 算法 和 Android 应 用 程序 的 大 量 特征 
因为 本 文 的 恶意 
所 以 本 文 将 该 方法 与 本 文 提出 的 方 没 


良性 
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和 准确 率 方面 进行 对 比 ， 其 结果 如 图 6 和 7 所 示 。 果 显 示 ， 所 提出 的 模型 需要 较 少 的 时 间 来 检测 应 用 程序 集 ， 并 
5000 且 具 有 较 高 的 检测 精度 。 在 未 来 的 工作 中 ， 将 进一步 探索 特征 
pam 与 个 体 之 间 相关 性 的 影响 ， 以 及 从 不 同 角 度 提 取 特 征 ， 以 提高 

$3000 Android 恶意 应 用 的 检测 准确 性 。 
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